home
***
CD-ROM
|
disk
|
FTP
|
other
***
search
/
Chip 1996 April
/
CHIP 1996 aprilis (CD06).zip
/
CHIP_CD06.ISO
/
hypertxt.arj
/
9308
/
RECOGN.CD
< prev
next >
Wrap
Text File
|
1995-04-19
|
17KB
|
279 lines
@VOlvasson könnyebben!@N
@VRecognita Plus 2.0@N
A karakterfelismerô szoftverek területén Magyarországon
egyeduralkodó Recognita Plus új verzióval lepte meg
közönségét. Nagy kíváncsisággal vettük szemügyre.
Kíváncsiak voltunk többek között arra, hogy vajon mennyit
javítottak a szövegfelismerô algoritmuson. Az
SZKI--Recognita Rt. még kellemesebb kezelhetôséget ígér a
felhasználóknak, és egy olyan javított algoritmust, ami az
egymáshoz érô betûket, ezenkívül faxokon vagy akár 9 tûs
mátrixnyomtatókon kinyomtatott szövegeket is képes
felismerni.
A Recognita azon kevés OCR programok közé tartozik, amelyek
nem betûtípushoz kötöttek, azaz gyakorlatilag mindegy
milyen dokumentumot szeretnénk bevinni gépünkbe, lényeg,
hogy latin vagy görög szöveg legyen. Automatikusan
választja szét a grafikát és a szöveget. A beolvasandó
szöveg bármilyen betûtípussal készülhet -- Times Roman,
Helvetica stb.. -- akár keverve is, 6--24 pont nagyságig.
Lehet monospace (például Courier) vagy proporcionális
(például Times Roman), egy vagy több oldal. Több, mint 80
ország nemzeti jeleit ismeri, ezek közül válogathatunk,
melyeket kell felismernie, melyeket nem. A nemzeti
karakterek keverve is elhelyezkedhetnek egy oldalon belül.
Hétfajta képtárolási, s több, mint 85 szövegszerkesztô
formátumot támogat. 80 ismertebb lapolvasó közül
válogathatunk.
@VMenürendszer@N
A felhasználót átgondolt menürendszer segíti a Windows
alatt. A Recognitában megtalálható minden olyan nyomógomb,
ami a ""szokványos" Windows-alkalmazásokban már megszokott.
Legördülô menükbôl választhatjuk ki a mûveleteket, de
gyakorlatilag minden lényeges parancsot megtalálhatunk az
ikonlécen is, például a sûrûn használt ""OLVAS"-t is.
Ezeket a parancsokat tehát egy egérkattintással elérhetjük.
Néhány opciót is állítani lehet innen, ilyen például a lap
állása (orientáltsága), a scanner fényereje, vagy a lap
mérete. Az ikonléc mindig alkalmazkodik a munkafolyamathoz,
így például ha egy olvasást félbeszakítunk, ""OLVAS" gomb
helyett ""FOLYTAT" és ""MEGÅLL" található ugyanott. Ha
valaki jobban szereti a legördülô menüket, le is tilthatja
az ikonlécet, megnövelve ezzel a szabad képernyôterületet.
@V @VElôforduló hibák@N
A Recognita legnagyobb ""ellensége" a rosszul megválasztott
lapolvasó, ezért annak minôségétôl nagyon erôsen függ a
rendszer hatékonysága. Minél nagyobb a scanner felbontása,
annál szebben lehet beolvasni az oldalakat, így nô a
felismerés esélye.
Ha két betû túl közel van egymáshoz, kis felbontású
letapogatásnál grafikusan össze fognak érni. Az így
összeérô betûket nehéz szétválasztani. A régi Recognita
ilyenkor nem ismerte fel, hány betûrôl van szó, így a
mintavételezésül használt terület több karaktert
tartalmazott. A 2.0-ás változatban javítottak az
algoritmuson, és az új változat a legtöbb esetben már képes
az így összeérô betûket szétválasztani. Az is elôfordulhat,
hogy túlságosan összefolynak a betûk, s nem sikerül ôket
szétválasztani. Ezeket az alakzatokat a továbbiakban egy
betûként kezeli a program, ezért nem tudja felismerni az
ôket alkotó betûket. Ha csak két betû ér össze,
szerencsénk van, mert kétbetûs kombinációt képes
megtanulni, így késôbb ezekkel a betûpárokkal a
továbbiakban könnyedén megbirkózhatunk.
Nemcsak a betûk érhetnek össze, hanem ugyanígy a sorok is.
Ilyenkor a felismerésre szánt területen -- hasonlóan az
összeérô betûkhöz -- nem egy, hanem több jelet hisz egy
betûnek. A legtöbb esetben ki lehet védeni ezt oly módon,
hogy a lapolvasó kontrasztját kissé lejjebb vesszük. Emiatt
a betûket alkotó vonalak vastagsága csökkenhet, és jó
esetben szétválnak az összefolyó jelek. A legjobb megoldást
azonban egy nagyobb felbontású letapogató adja, ugyanis a
jelek közötti vékonyabb hézagokat csak finom raszterméret
mellett lehet felismerni.
Optimális esetben megfelelnek a sorok és az egyes
karakterek közötti távolságok. Van azonban néhány
betûtípus, ahol a karakter rajzolata néhány ponton
elvékonyodik. Ilyen a Times Roman, és annak összes
változata. Az elvékonyodások adják e betûtípus könnyen
felismerhetô jellegét. A Recognita nem szereti az
elvékonyodásokat, ugyanis a scanneren beolvasott grafikus
file a vékonyabb vonalakat ""elfelejti", emiatt a betû
egyes részei nem érnek össze, és máris sok javítani való
akad a szövegben. Ha ezeket a ""csúnya" karaktereket meg
akarjuk taníttatni a programmal -- abban a reményben, hogy
legközelebb könnyebb dolgunk lesz --, könnyen elronthatjuk
a már viszonylag jól bevált felhasználói fát, s emiatt az
egyébként kitûnôen olvasható betûket sem fogja jól
felismerni. Például ha egy olyan betûtípust tanítunk meg,
aminél a kis ""a" betû felül nem záródik rendesen (sajnos
van ilyen), elôbb-utóbb az ""u" betût ""a"-nak fogja
felismerni a rendszer. Tanítás elôtt ajánlatos emiatt új
felhasználói fát definiálni.
Nem sokat lehet segíteni a rossz kontraszthatású szövegek
felismerésén. A Recognita által grafikusan beolvasott kép
egybites, azaz nem tartalmaz sem színekre, sem
szürkeárnyalatokra vonatkozó információt. Ha a karakterek
és sorok kellô távolságban vannak egymástól, és még a betûk
színe is teljesen elütô, akkor nincs sok teendônk a
dokumentummal, csak bele kell helyezni a scannerbe, és egy
gombnyomással beolvastatni a szöveget. Más a helyzet
azokkal a dokumentumokkal, ahol a betûk színéül a fekete
helyett -- szabad szemmel jól olvasható -- zöldet
választottak. Csak nagy kínszenvedéssel tudjuk az ilyen
szöveget elfogadható pontossággal rögzíteni, mivel a zöld
szín szürkeárnyalata azon a határon van, ahol @Kmég nem@N
nevezhetô sötétnek, de @Kmár nem@N világos. Grafikus képen
hol feketének, hol pedig fehérnek fogjuk látni az ilyen
szöveget. Világos, hogy ebben az esetben nem sokat lehet
várni a szoftvertôl.
Még rosszabb a helyzet, ha a kinyomtatott szöveget fehér
papíron sárga betûvel készítették el. Még szabad szemmel is
nehezen olvasható az ilyen iromány, Recognitával pedig ne
is kísérletezzünk. Az ilyen gyenge kontrasztú szövegeket az
1 bites képkezelés miatt nem tudja beolvasni a scanner,
helyette tiszta fehér lapot kapunk, amire kézzel bevihetjük
ugyan a szöveget, de erre bármelyik szövegszerkesztô
alkalmas. Ugyanez a helyzet a szürke alapon fekete, s a
színes alapon fekete betûkbôl álló szövegekkel is. A
Világgazdaság címû hetilap beolvasásakor például igen rossz
eredményt értünk el. Ennek a zöld alapszín és a sûrû sorok
voltak az okai.
Hiányoltuk, hogy a Recognita nem kezeli a színes anyagokat.
A színinformációk miatti többletteendôk miatt valószínûleg
lassabban készítené el a szövegfile-t, viszont az emberi
munkát nagymértékben csökkenthetné egy ilyen program.
@Vùjdonság@N
A régi Recognita nem tudta megfelelôen kezelni a
telefaxokat és a mátrixnyomtatóval kinyomtatott szövegeket.
A faxnál egyszerû a helyzet, ""csak" figyelembe kell venni
a durva letapogatás okozta összemosódásokat. Hagyományosan
a fax felbontási finomsága igen durva, így annak minden --
szövegátvitelre vonatkozó -- paramétere hasonló a kis
felbontású lapolvasókéhoz. Az egyes közel kerülô karakterek
és sorok összeérhetnek, a kontraszthatások pedig
meglepetéseket okozhatnak. Az ilyen torzított dokumentumon
azután nem sokat segíthet egy jó minôségû scanner sem. Még
a dokumentum továbbítása elôtt célszerû a készüléket FINE
vagy SuperFINE minôségre állítani, így a dokumentum sokkal
nagyobb felbontásban kerül át a vonal másik végére. Aki
arra számít, hogy a faxon kapott összes anyagát
könnyûszerrel beolvastathatja, nagyot téved. A fax típusú
szöveget a Recognita Plus 2.0 viszonylag könnyen elolvassa,
kivéve, ha a hazai telefonvonal -- köztudottan jó --
minôsége folytán az irat nehezen olvashatóvá válik.
(Ajánlatos olyan faxkészüléket venni, ami képes az ECM
hibavédett irattovábbításra is.) Teszteléseink alapján
elmondhatjuk, hogy a tipikusan hazai (rossz minôségû) faxot
nehezen emészti meg a szoftver. Ez sajnos nem a Recognita
hibája. Azért sajnos, mert ez utóbbin könnyebben lehetne
javítani... A Recognitától tehát ne várjunk csodákat --
vegyük figyelembe, hogy a különbözô cégektôl faxon kapott
anyagokat gyakran még magunk is nehezen olvassuk.
Nagyon sokan még ma is inkább a -- már bevált --
mátrixnyomtatókat használják. Ennek egyik oka az lehet,
hogy a többpéldányos papírra sem a tintasugaras, sem pedig
a lézernyomtatók nem képesek nyomtatni. (Egyik tipikus
mátrixnyomtatós alkalmazás a számlaírás.)
A tûs nyomtatókkal írt szöveg betûi pontokból tevôdnek
össze. E pontok elhelyezkedése nagyban függ a printer
paramétereitôl és minôségétôl. A kilenctûseknél a pontok
teljesen külön ""élnek", azaz minden pont szabad szemmel is
jól szétválasztható. Ha ezt a betût beszkennelve nézzük
meg, láthatjuk, hogy a pontok között kis hézagok vannak.
Mivel a betûket leginkább a köztes hézagokkal lehet
egymástól elválasztani, a Recognita elôzô verziója minden
pont közötti rést betûelválasztásnak vett. Ha az új
verzióban bekapcsoljuk a mátrixnyomtató opciót, egy másik
algoritmus kezd dolgozni, mely könnyebben megküzd ezzel a
problémával. Ezeknél a nyomtatóknál azonban felmerül még
egy probléma: draft (gyorsnyomtató) üzemmódban általában
nagyon halványan nyomtatnak, így ugyanazok a problémák
merülhetnek fel, mint a színes anyagoknál.
ùjdonság még a Windows 3.1 OLE funkciójának kihasználása.
Az új Recognita tehát összekapcsolható más windowsos
szövegszerkesztôkkel, ha ezt beállítjuk a Recognita
setupjában, és aktívvá tesszük a karakterfelismerôt.
ùgy érzem, szólnunk kell néhány meglepetésrôl is.
Itt van rögtön az egyik: 300 dpi-vel beolvastam egy lapot,
azután beállítottam a kereteket, amit azon nyomban el is
mentettem sablonként. Ugyanezt a lapot 400 dpi-vel
olvastam be, és az elmentett keretezést visszatöltöttem.
Csodálkoztam, amikor olyan szövegrészleteket is felismert a
program, ami nem volt benne a keretben. Mint kiderült, a
keret máshová került a nagyobb felbontás következtében.
Még egy furcsaság: A grafikus ablakokat lezártam, majd
beolvastam egy oldalt. Az eredmény meglepô volt, ugyanis a
képernyôn nem látható kereteket hasonlóan beszínezte,
mintha a ""lap képe" ablak nyitva lett volna, csak
barnával. Még a menü is kapott a ""festékbôl". A gyártó cég
már dolgozik e hiba kijavításán.
Ez volt a legkellemetlenebb: Egy meglévô .TIF formátumú
file-t beolvastunk a windowsos változattal a memóriába,
majd az ""olvas-utolsó képbôl" menübôl fel akartuk
ismertetni a szöveget. Az eredmény egy ablakocska volt, a
hírhedt ""UAE" hibaüzenettel... Ezt a jelenséget nem tudtam
újra produkálni, ezért a Windows hibájául róttam fel.
Volt azonban kellemes is: Egy ilyen elszállás után
újraindítottam a gépet, majd a Recognitát. A rendszer
felismerte a hiba tényét, és visszavarázsolta az addig
beolvasott szöveget.
@VÖsszegzés@N
A régi változathoz képest valóban javítottak a felismerô
algoritmuson. Amit nem ismer fel (vagy rosszul), az mind
""megmagyarázható". Kicsit filozófikus kérdés, hogy vajon
érdekli-e ez a felhasználót.
Mindenesetre általánosan elmondható az, hogy a Recognita
Plus 2.0 azoknak a felhasználóknak lehet segítôtársa, akik
nagy mennyiségben jó minôségû, lehetôleg fekete-fehér
nyomtatott szöveget szeretnének beolvasni számítógépükbe.
Nagy segítséget nyújthat például, ha egy nagyobb cég bejövô
hivatalos leveleit -- vagy a feldolgozandó részeit --
rögzíteni akarják iktatás céljából. Egyre több helyen
írják a leveleket jó minôségû lézernyomtatóval, az ilyen és
más, géppel írt (írógép vagy számítógép) leveleket be lehet
olvastatni ezzel a szofverrel.
@KRudnai Tamás@N
@VFelismerési pontosság@N
Az új termék teljesítôképességének elbírálására különbözô
anyagokat válogattunk össze. Beolvasásuk után
összeszámoltuk, hány olyan karakter volt, amiben nem volt
biztos (megjelölte), és rosszul ismerte fel; amiben nem
volt biztos (megjelölte), és jól ismerte fel; amit nem
ismert fel, és pirossal megjelölte; amit nem ismert fel és
nem jelölt meg; ami elveszett; amit a piszkok, grafikák
miatt karakternek ismert fel; amit nem a megfelelô helyre
tett be (például ékezet helyett vesszô a felette levô
sorban).
Ebbôl a kiértékelésbôl kiszámoltuk, hány százalékos volt a
pontosság, és hány javítás kellett volna ahhoz, hogy a
beolvasott szöveg 100%-ig pontos legyen.
@Vkarakter@N @Vpiros@N @Vsárga@N @Vjelölt@N @Vjelölt@N @Vnem jelölt@N @Vleütés@N @Vfelismerés@N
@Vösszesen@N @Vrossz@N @Vjó@N @Vrossz@N @Vkell még@N @Vpontossága@N
@Vlézernyomtató@N 7347 5 7 3 4 28 31 99,6%
@Vfényes prospektuosk@N 973 1 5 4 2 2 6 99,4%
@Vnapilapok@N 965 12 39 31 20 18 49 94,9%
@Vtelefax anyag@N 1539 73 86 104 55 17 121 92,1%
@Vmátrixnyomtató@N 854 49 47 65 31 10 75 91,2%
@Vvegyes anyagok@N 11678 140 184 207 81 75 282 97,6%